Multi Sensor Fusionが自動運転に重要。カメラとLiDAR(いろんな光を出して、それの反射光で距離を測定するもの 出力は1本の光ごとに1つの点なので、点群)
ただ、LiDARは距離的な歪みが生じる。近傍の点なのに、距離としては非常に離れていると扱われること。
BEV map(鳥瞰図)の各部分セルが何なのかをカテゴリすることに、精度が低くなる問題が起こる。
既存の解決手法はあるが計算量は大きい。この論文はこれを改善した。
point-level-fusion: ポイントレベルの融合は、複数のデータソースからの情報が、それぞれのピクセルやポイントに対して組み合わせる手法。
mIoU: 各セルで、例えば「山」と予測したエリアAと、実際に「山」だったエリアBにおいて、 という指標。1に近いほど良い。
先行研究のMVP: Multimodal Virtual Prediction 。
やりたいこと: 2次元画像の奥行をうまく予測したい!
手法
2つのセンサーを1つの鳥瞰図に投影したい。地理的な情報(ここは○○の隣)も、意味的な情報(ここは「山」)も落とさずに格納したい。
手法の詳細
カメラ画像から鳥瞰図にするには、画像からEncoderで何かしらの特徴を抽出して、それをうまく鳥瞰図にしたい。
奥行も撮れる、 のカメラがあるとする。(複数台のカメラで撮っている感じ)
の鳥瞰図の2次元画像グリッドごとに、poolingしてそのグリッドを代表する奥行を推測する。これをやる予測器をまず開発したよ。
